Apache Tika 是一个伞/包装项目。从一个多种不同的文件类型(例如PPT、XLS和PDF)中检测并提取元数据和文本。